from urllib import request
import re
import os

# 以写的方式，打开预备写进信息的文件
f = open("./maoyan.txt","w")

# 遍历需要爬取信息的十个页面
for i in range(0, 100, 10) :
    url = 'https://maoyan.com/board/4?offset='+str(i)

    req = request.Request(url)

    res = request.urlopen(req)

    html = res.read().decode("utf-8")
    #print(len(html))

    # 数据解析
    pat = '<dd>.*?<i class="board-index board-index-[0-9]+">(.*?)</i>.*?<img data-src="(.*?)" alt=".*?" class="board-img" />.*?<a .*?">(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>'
    # re.S 模式修正符 使 . 匹配包括换行在内的所有字符
    dlist = re.findall(pat,html,re.S)
    # 将信息写进文件
    # re.sub(r'\s+','',v[3])
    for v in dlist:
        f.write('排名：%s\n图片：%s\n名称：%s\n%s\n%s\n评分：%s%s'%(v[0],v[1],v[2],re.sub(r'\s+','',v[3]),v[4],v[5],v[6]))
        # f.write('\n') 在文件中输出换行
        f.write('\n')
        f.write('\n')
# 关闭文件
f.close()
print("打印成功...")


